# coding:utf-8
import os

import jieba
import gensim
import re

#获取指定路径的文件内容
def get_file_contents(path):
    str = ''
    f = open(path, 'r', encoding='UTF-8')
    line = f.readline()
    while line:
        str = str + line
        line = f.readline()
    f.close()
    return str

#将读取到的文件内容先进行jieba分词，然后再把标点符号、转义符号等特殊符号过滤掉
def filter(str):
    str = jieba.lcut(str)
    result = []
    for tags in str:
        if (re.match(u"[a-zA-Z0-9\u4e00-\u9fa5]", tags)):
            result.append(tags)
        else:
            pass
    return result

#传入过滤之后的数据，通过调用gensim.similarities.Similarity计算余弦相似度
def calc_similarity(text1,text2):
    texts=[text1,text2]
    dictionary = gensim.corpora.Dictionary(texts)
    corpus = [dictionary.doc2bow(text) for text in texts]
    similarity = gensim.similarities.Similarity('-Similarity-index', corpus, num_features=len(dictionary))
    test_corpus_1 = dictionary.doc2bow(text1)
    cosine_sim = similarity[test_corpus_1][1]
    return cosine_sim

if __name__ == '__main__':
#     path1 = "E:\pythonProject1\test\orig_0.8_dis_10.txt"  #论文原文的文件的绝对路径（作业要求）
#     path2 = "E:\pythonProject1\test\orig_0.8_dis_15.txt"  #抄袭版论文的文件的绝对路径
#     save_path = "E:\pythonProject1\save.txt"   #输出结果绝对路径
#     str1 = get_file_contents(path1)
#     str2 = get_file_contents(path2)
#     str1 = """ GPR18与其他基因检测剂组合的新用途及抑郁症检测试剂
# 本申请是名称为一种严重抑郁症检测试剂、系统及应用，申请号为202110451314.3，申请日为2021年4月26日的发明专利的分案申请。
# 技术领域
# 本发明属于生化检测技术领域，具体涉及GPR18与其他基因检测剂组合的新用途及抑郁症检测试剂。
# 背景技术
# 严重抑郁症是最常见的神经精神病之一。随着社会经济的发展和人们工作压力的加大，世界抑郁症发病率逐年上升，抑郁症发病率占世界的1.4%。世卫组织预测：到2020年，抑郁症将成为继癌症之后残疾和死亡的第二大原因。因此，抑郁症会对个人、家庭和社会造成严重的伤害。目前，严重抑郁症的诊断和治疗目前临床标准基于患者的情感障碍特征。严重抑郁症患者早期诊断的客观标准，仍不够明确，现有的生物标志物因为特异性和敏感性不佳而受到质疑。
# 此外，抑郁症是由多种因素引起的慢性疾病，受到表观遗传学、内分泌、生理变化和环境等因素的影响。越来越多的证据表明，环境因素与遗传因素相互作用，通过神经回路、内分泌和突触结构的长期变化，诱发表观遗传变化，从而导致抑郁症状和其他神经精神疾病的风险。这一证据表明，遗传因素在严重抑郁症的发生和发展中以极其复杂的形式发挥作用。
# 自噬是真核生物中高度保存的生物分解过程，将细胞内分（包括蛋白质和细胞器）传输到溶酶体。自噬基因参与代谢调节时，会出现明显的表达量变化，例如在饥饿下为能量供应提供氨基酸，其表达量显著增加，特别是在肝脏中。而在神经元中，自噬作用通过清除错误折叠的蛋白质和细胞器来维持神经元的平衡和功能，其扮演者持家基因的角色，表达量水平维持平稳。
# 超过30种与自噬相关的基因（ARGs）被认为与疾病、代谢紊乱密切相关，其被认为可能参与了多种病理过程，然而，与自噬相关的基因在严重抑郁症中的作用尚不明确。我们通过数据挖掘，发现自噬相关基因可能参与了严重抑郁症伴随的免疫失调，特别是前列腺细胞因子参与的抑郁症代谢通路。数据验证了自噬相关基因可以被作为严重抑郁症的生物标记物，作为生化检测指标。
# 发明内容
# 针对现有技术的以上缺陷或改进需求，本发明提供了GPR18与其他基因检测剂组合的新用途及抑郁症检测试剂，主要解决了GPR18、PDK4、NRG1、EPHB2的一些研究空白，以及抑郁症检测的缺失。
# 为了解决上述问题，本发明采用如下技术方案：
# GPR18表达水平检测剂与PDK4、NRG1、EPHB2三者中至少一个的表达水平检测剂的组合在制备严重抑郁症检测产品中的应用。
# 在一些方式中，GPR18表达水平检测剂与PDK4、NRG1、EPHB2三者中至少两个的表达水平检测剂的组合在制备严重抑郁症检测产品中的应用。
# 在一些方式中，GPR18表达水平检测剂与PDK4、NRG1、EPHB2的表达水平检测剂的组合在制备严重抑郁症检测产品中的应用。
# 在一些方式中，所述严重抑郁症检测产品为严重抑郁症早期非侵入性定量检测试剂。
# 在一些方式中，表达水平检测剂包括GSE98793芯片。
# 严重抑郁症检测试剂，包括GPR18表达水平检测剂与PDK4、NRG1、EPHB2三者中至少一个的表达水平检测剂。
# 在一些方式中，所述严重抑郁症检测试剂为严重抑郁症早期非侵入性定量检测试剂。
# 本发明的有益效果是：
# GPR18、PDK4、NRG1和EPHB2的表达量检测实际具有较高的诊断效率，可作为独立候选诊断生物标志物发挥作用，血液样本可通过中使用GSE98793 芯片无创、高通量的检测其表达量。其各自作为筛查指标准确性达到0.6至0.8，达到中等强度筛查指标的标准，其联合表达量指标作为筛查指标的准确性达到0.779。
# 附图说明
# 图1是实施例1对GSE98793数据集（组织来源是全血）进行分析，不同基因在正常健康对照人群和抑郁症患者之间的表达差异；
# 图2是实施例3对GSE53987数据集进行分析，GPR18在抑郁症患者相对于正常对照的前额皮层组织中表达显著下降，*P&lt;0.05；
# 图3是实施例4对GPR18、PDK4、NRG1以及EPHB2基因诊断效力评估；
# 图4是实施例5抑郁症动物模型建模测试结果图；
# 图5是实施例5抑郁症模型小鼠GPR18在前额皮层组织中表达量测试结果；
# 图6是通过GSE53987数据集进行AUC多种组合分析后获得结果图。
# 具体实施方式
# 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
# 本发明提供的严重抑郁症检测试剂，包括CAPNS2、WDR41、GPR18、PDK4、NRG1以及EPHB2基因表达水平检测试剂一种或多种的组合；优选包括GPR18、PDK4、NRG1以及EPHB2基因表达水平检测试剂一种或多种的组合；更优选包括GPR18、PDK4、NRG1以及EPHB2基因表达水平检测试剂。
# 其为基因表达水平检测试剂，优选为基因mRNA表达水平检测试剂，例如GSE98793芯片。
# 本发明提供的抑郁症检测系统，包括基因表达水平获取模块、判断模块；
# 所述基因表达水平获取模块用于获取CAPNS2、WDR41、GPR18、PDK4、NRG1以及EPHB2基因中一个或多个基因的表达水平，并提供给判断模块；优选获取GPR18、PDK4、NRG1以及EPHB2基因中一个或多个基因的表达水平；更优选获取GPR18、PDK4、NRG1以及EPHB2基因的表达水平。
# 所述判断模块以CAPNS2、WDR41、GPR18、PDK4、NRG1以及EPHB2基因中一个或多个基因的表达水平为分类器的输入，判断样本是否来自于严重抑郁症患者。
# 采用GPR18、PDK4、NRG1以及EPHB2基因的表达水平作为分类依据，AUC达到0.7以上，可作为临床筛查严重抑郁症的参考依据。
# 以下为实施例：
# 实施例1 统计分析正常对照以及严重抑郁症患者表达量差异分析
# 数据来源：验证抑郁症患者和正常对照的基因差异表达数据来自于GEO数据库（Gene Expression Omnibus）GSE98793数据集，采用GPL570平台（[HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array.），进行血样分析。其中严重抑郁症患者128例，正常人对照64例，包含两个批次的数据，采用limma包的工具“removeBatchEffect”消除批次效应。
# 统计：采用R语言中的limma工具包对CAPNS2、WDR41、GPR18、PDK4、NRG1以及EPHB2基因进行表达差异分析。结果显示，上述基因在严重抑郁症患者中的表达量差异明显（P值&lt; 0.05且(|log FC|) ≥0.2），部分差异表达的基因如图1所示。
#
#
#
# 基因名称
#
#
# 表达差异
#
#
# P值
#
#
#
#
# CAPNS2
#
#
# 0.45
#
#
# 1.33E-02
#
#
#
#
# WDR41
#
#
# -0.76
#
#
# 5.8E-04
#
#
#
#
# GPR18
#
#
# -0.65
#
#
# 7.9E-03
#
#
#
#
# PDK4
#
#
# 0.51
#
#
# 2.21E-03
#
#
#
#
# NRG1
#
#
# 0.47
#
#
# 2.17E-03
#
#
#
#
# EPHB2
#
#
# 0.61
#
#
# 2.23E-03
#
#
#
# 实施例2 逻辑回归分析正常对照以及严重抑郁症患者表达量差异分析
# 数据来源：同实施例1
# 多变量逻辑回归分析：采用逐步向后法进行多变量逻辑回归分析，结果如下表所示，显示GPR18、PDK4、NRG1、以及EPHB2基因之间的影响相互独立，适合作为抑郁症的生化检测指标，共同提供筛查依据。
#
#
#
# 基因名称
#
#
# 表达差异
#
#
# P值
#
#
#
#
# GPR18
#
#
# -1.45
#
#
# 0.027
#
#
#
#
# PDK4
#
#
# -0.59
#
#
# 0.034
#
#
#
#
# NRG1
#
#
# 0.58
#
#
# 0.045
#
#
#
#
# EPHB2
#
#
# 0.86
#
#
# 0.034
#
#
#
# 实施例3 GSE53987尸脑组织验证
# 为了对GPR18和抑郁症生物学功能进行了进一步验证，我们分析这些诊断标志物基因在抑郁症患者尸脑组织中的表达量变化。GSE53987检测结果显示，在抑郁症患者尸脑组织的前额皮层中，GPR18表达量显著下调，这与我们的外周结果相一致。之后，我们建立慢性社会挫败应激小鼠抑郁模型（CSDS model），与正常小鼠相比较，CSDS model的前额皮层组织中GPR18的mRNA水平显著下降。实验动物模型的结果与前述人体外周血、尸脑组织结果一致。
# 实施例4 抑郁症检测系统
# 以GPR18、PDK4、NRG1以及EPHB2基因在血液中的表达量作为检测指标，计算其作为重度抑郁症诊断标记物的效力。
# 验证数据：验证抑郁症和正常人基因差异表达数据来自于GEO数据库（Gene Expression Omnibus）GSE98793数据集，采用GPL570平台（[HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array.），进行血样分析。其中严重抑郁症患者128例，正常对照64例，包含两个批次的数据，采用limma包的工具“removeBatchEffect”消除批次效应。
# 结果显示GPR18基因的表达水平检测结果准确性达到0.702(95% CI 0.628–0.777)，PDK4基因的表达水平检测结果准确性达到0.620 (95% CI 0.536–0.705)，NRG1基因的表达水平检测结果准确性达到0.660 (95% CI 0.581–0.741)，EPHB2基因的表达水平检测结果准确性达到0.631 (95% CI 0.550–0.710)。均达到中等强度筛查指标的准确性要求（AUC在0.5至0.8）。
# 需要说明的是：其余的基因表达水平检测结果准确性也均可以通过前述方法计算而得。联合模型的计算是采用常用的AUC分析模型。
# 通过多变量逻辑回归显示，最佳诊断指标为：（-0.651* PDK4表达量） + （−1.958 * GPR18表达量） + （0.638 * NRG1表达量） + （0.899 * EPHB2表达量）。基因联合指标的准确性AUC值高达0.779(95%CI=0.709-0.848)，高于单一基因的表达量的检测准确性。如下表所示：
#
#
#
# 指标
#
#
# AUC
#
#
#
#
# GPR18
#
#
# 0.702
#
#
#
#
# PDK4
#
#
# 0.620
#
#
#
#
# NRG1
#
#
# 0.660
#
#
#
#
# EPHB2
#
#
# 0.631
#
#
#
#
# 基因联合模型
#
#
# 0.779
#
#
#
# 虽然已有NRG1，PDK4，EPHB2在抑郁症病理生理过程中能够发挥作用，然而未有证据表明其表达量在严重抑郁症病理状态下与健康状态下的差异，例如NRG1基因的多态性可能与抑郁症存在关联关系，但其表达量是否能应用于抑郁症诊断的早期筛查指标，有赖于确认其是否在不同影响因素（年龄、性别）下其适合检测的指标，例如表达量，存在较为稳定的差异，其作为抑郁症筛查标志物是否具有足够的抑郁症样本区分能力（达到中等准确水平）。本发明首先确认了此前未见抑郁症关联报道的基因GPR18与严重抑郁症的关联关系，然后提供了6个基因（CAPNS2、WDR41、GPR18、PDK4、NRG1以及EPHB2）其表达量能作为严重抑郁症检测生化指标的数据实证以及实验证据，包括有效性、稳定性。优选方案分析了这些基因之间的影响独立性，确认最佳的严重抑郁症基因表达量检测标志物组合为：GPR18、PDK4、NRG1、以及EPHB2基因的表达量。
# 实施例5 动物模型验证
# 建立抑郁症动物模型，采用行为学测试（糖水偏好、悬尾、强迫游泳）评估抑郁症动物模型，结果如图4所示。结果显示：抑郁症模型建立成功，抑郁症动物模型相对于正常对照*P&lt;0.05。
# 设计合成GPR18引物序列，取抑郁症小鼠和正常动物的前额皮层组织，采用RT-PCR检测GPR-18的mRNA相对表达量，GPR18的引物序列如下：
# Forward sequence：5’-GAAGCCCAAGGTCAAGGAGAAGTC-3’
# Reverse sequence：5’-GCGAACACTGCGAAGGTAATTGC-3’
# 结果显示如图5所示，与正常小鼠相比较，GPR18在抑郁症模型小鼠的前额皮层组织中表达显著降低*P&lt;0.01。
# 本领域的技术人员可以明确，在不脱离本发明的总体精神以及构思的情形下，可以做出对于以上实施例的各种变型。其均落入本发明的保护范围之内。本发明的保护方案以本发明所附的权利要求书为准。"""
#     str2 = """ GPR18的新用途及抑郁症检测试剂
# 本申请是名称为一种严重抑郁症检测试剂、系统及应用，申请号为202110451314.3，申请日为2021年4月26日的发明专利的分案申请。
# 技术领域
# 本发明属于生化检测技术领域，具体涉及GPR18的新用途及抑郁症检测试剂。
# 背景技术
# 严重抑郁症是最常见的神经精神病之一。随着社会经济的发展和人们工作压力的加大，世界抑郁症发病率逐年上升，抑郁症发病率占世界的1.4%。世卫组织预测：到2020年，抑郁症将成为继癌症之后残疾和死亡的第二大原因。因此，抑郁症会对个人、家庭和社会造成严重的伤害。目前，严重抑郁症的诊断和治疗目前临床标准基于患者的情感障碍特征。严重抑郁症患者早期诊断的客观标准，仍不够明确，现有的生物标志物因为特异性和敏感性不佳而受到质疑。
# 此外，抑郁症是由多种因素引起的慢性疾病，受到表观遗传学、内分泌、生理变化和环境等因素的影响。越来越多的证据表明，环境因素与遗传因素相互作用，通过神经回路、内分泌和突触结构的长期变化，诱发表观遗传变化，从而导致抑郁症状和其他神经精神疾病的风险。这一证据表明，遗传因素在严重抑郁症的发生和发展中以极其复杂的形式发挥作用。
# 自噬是真核生物中高度保存的生物分解过程，将细胞内分（包括蛋白质和细胞器）传输到溶酶体。自噬基因参与代谢调节时，会出现明显的表达量变化，例如在饥饿下为能量供应提供氨基酸，其表达量显著增加，特别是在肝脏中。而在神经元中，自噬作用通过清除错误折叠的蛋白质和细胞器来维持神经元的平衡和功能，其扮演者持家基因的角色，表达量水平维持平稳。
# 超过30种与自噬相关的基因（ARGs）被认为与疾病、代谢紊乱密切相关，其被认为可能参与了多种病理过程，然而，与自噬相关的基因在严重抑郁症中的作用尚不明确。我们通过数据挖掘，发现自噬相关基因可能参与了严重抑郁症伴随的免疫失调，特别是前列腺细胞因子参与的抑郁症代谢通路。数据验证了自噬相关基因可以被作为严重抑郁症的生物标记物，作为生化检测指标。
# 发明内容
# 针对现有技术的以上缺陷或改进需求，本发明提供了GPR18的新用途及抑郁症检测试剂，主要解决了GPR18、CAPNS2、WDR41的一些研究空白，以及抑郁症检测的缺失。
# 为了解决上述问题，本发明采用如下技术方案：
# GPR18的表达水平检测剂在制备严重抑郁症检测产品中的应用。
# GPR18表达水平检测剂与CAPNS2、WDR41两者中至少一个的表达水平检测剂的组合在制备严重抑郁症检测产品中的应用。
# 在一些方式中，GPR18表达水平检测剂与CAPNS2、WDR41的表达水平检测剂的组合在制备严重抑郁症检测产品中的应用。
# 在一些方式中，所述严重抑郁症检测产品为严重抑郁症早期非侵入性定量检测试剂。
# 在一些方式中，表达水平检测剂包括GSE98793芯片。
# 严重抑郁症检测试剂，包括GPR18表达水平检测剂与CAPNS2、WDR41中至少一个的表达水平检测剂。
# 在一些方式中，所述严重抑郁症检测产品为严重抑郁症早期非侵入性定量检测试剂。
# 本发明的有益效果是：
# GPR18、CAPNS2、WDR41的表达量检测实际具有较高的诊断效率，可作为独立候选诊断生物标志物发挥作用，血液样本可通过中使用GSE98793 芯片无创、高通量的检测其表达量。其各自作为筛查指标准确性达到0.6至0.8，达到中等强度筛查指标的标准，其联合表达量指标作为筛查指标的准确性也提升到0.7以上。
# 附图说明
# 图1是实施例1对GSE98793数据集（组织来源是全血）进行分析，不同基因在正常健康对照人群和抑郁症患者之间的表达差异；
# 图2是实施例3对GSE53987数据集进行分析，GPR18在抑郁症患者相对于正常对照的前额皮层组织中表达显著下降，*P&lt;0.05。
# 图3是实施例4对GPR18、PDK4、NRG1以及EPHB2基因诊断效力评估；
# 图4是实施例5抑郁症动物模型建模测试结果图；
# 图5是实施例5抑郁症模型小鼠GPR18在前额皮层组织中表达量测试结果；
# 图6是通过GSE53987数据集进行AUC多种组合分析后获得结果图。
# 具体实施方式
# 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
# 本发明提供的严重抑郁症检测试剂，包括CAPNS2、WDR41、GPR18、PDK4、NRG1以及EPHB2基因表达水平检测试剂一种或多种的组合；优选包括GPR18、PDK4、NRG1以及EPHB2基因表达水平检测试剂一种或多种的组合；更优选包括GPR18、PDK4、NRG1以及EPHB2基因表达水平检测试剂。
# 其为基因表达水平检测试剂，优选为基因mRNA表达水平检测试剂，例如GSE98793芯片。
# 本发明提供的抑郁症检测系统，包括基因表达水平获取模块、判断模块；
# 所述基因表达水平获取模块用于获取CAPNS2、WDR41、GPR18、PDK4、NRG1以及EPHB2基因中一个或多个基因的表达水平，并提供给判断模块；优选获取GPR18、PDK4、NRG1以及EPHB2基因中一个或多个基因的表达水平；更优选获取GPR18、PDK4、NRG1以及EPHB2基因的表达水平。
# 所述判断模块以CAPNS2、WDR41、GPR18、PDK4、NRG1以及EPHB2基因中一个或多个基因的表达水平为分类器的输入，判断样本是否来自于严重抑郁症患者。
# 采用GPR18、PDK4、NRG1以及EPHB2基因的表达水平作为分类依据，AUC达到0.7以上，可作为临床筛查严重抑郁症的参考依据。
# 以下为实施例：
# 实施例1 统计分析正常对照以及严重抑郁症患者表达量差异分析
# 数据来源：验证抑郁症患者和正常对照的基因差异表达数据来自于GEO数据库（Gene Expression Omnibus）GSE98793数据集，采用GPL570平台（[HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array.），进行血样分析。其中严重抑郁症患者128例，正常人对照64例，包含两个批次的数据，采用limma包的工具“removeBatchEffect”消除批次效应。
# 统计：采用R语言中的limma工具包对CAPNS2、WDR41、GPR18、PDK4、NRG1以及EPHB2基因进行表达差异分析。结果显示，上述基因在严重抑郁症患者中的表达量差异明显（P值&lt; 0.05且(|log FC|) ≥0.2），部分差异表达的基因如图1所示。
#
#
#
# 基因名称
#
#
# 表达差异
#
#
# P值
#
#
#
#
# CAPNS2
#
#
# 0.45
#
#
# 1.33E-02
#
#
#
#
# WDR41
#
#
# -0.76
#
#
# 5.8E-04
#
#
#
#
# GPR18
#
#
# -0.65
#
#
# 7.9E-03
#
#
#
#
# PDK4
#
#
# 0.51
#
#
# 2.21E-03
#
#
#
#
# NRG1
#
#
# 0.47
#
#
# 2.17E-03
#
#
#
#
# EPHB2
#
#
# 0.61
#
#
# 2.23E-03
#
#
#
# 实施例2 逻辑回归分析正常对照以及严重抑郁症患者表达量差异分析
# 数据来源：同实施例1
# 多变量逻辑回归分析：采用逐步向后法进行多变量逻辑回归分析，结果如下表所示，显示GPR18、PDK4、NRG1、以及EPHB2基因之间的影响相互独立，适合作为抑郁症的生化检测指标，共同提供筛查依据。
#
#
#
# 基因名称
#
#
# 表达差异
#
#
# P值
#
#
#
#
# GPR18
#
#
# -1.45
#
#
# 0.027
#
#
#
#
# PDK4
#
#
# -0.59
#
#
# 0.034
#
#
#
#
# NRG1
#
#
# 0.58
#
#
# 0.045
#
#
#
#
# EPHB2
#
#
# 0.86
#
#
# 0.034
#
#
#
# 实施例3 GSE53987尸脑组织验证
# 为了对GPR18和抑郁症生物学功能进行了进一步验证，我们分析这些诊断标志物基因在抑郁症患者尸脑组织中的表达量变化。GSE53987检测结果显示，在抑郁症患者尸脑组织的前额皮层中，GPR18表达量显著下调，这与我们的外周结果相一致。之后，我们建立慢性社会挫败应激小鼠抑郁模型（CSDS model），与正常小鼠相比较，CSDS model的前额皮层组织中GPR18的mRNA水平显著下降。实验动物模型的结果与前述人体外周血、尸脑组织结果一致。
# 实施例4 抑郁症检测系统
# 以GPR18、PDK4、NRG1以及EPHB2基因在血液中的表达量作为检测指标，计算其作为重度抑郁症诊断标记物的效力。
# 验证数据：验证抑郁症和正常人基因差异表达数据来自于GEO数据库（Gene Expression Omnibus）GSE98793数据集，采用GPL570平台（[HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array.），进行血样分析。其中严重抑郁症患者128例，正常对照64例，包含两个批次的数据，采用limma包的工具“removeBatchEffect”消除批次效应。
# 结果显示GPR18基因的表达水平检测结果准确性达到0.702(95% CI 0.628–0.777)，PDK4基因的表达水平检测结果准确性达到0.620 (95% CI 0.536–0.705)，NRG1基因的表达水平检测结果准确性达到0.660 (95% CI 0.581–0.741)，EPHB2基因的表达水平检测结果准确性达到0.631 (95% CI 0.550–0.710)。均达到中等强度筛查指标的准确性要求（AUC在0.5至0.8）。
# 需要说明的是：其余的基因表达水平检测结果准确性也均可以通过前述方法计算而得。联合模型的计算是采用常用的AUC分析模型。
# 通过多变量逻辑回归显示，最佳诊断指标为：（-0.651* PDK4表达量） + （−1.958 * GPR18表达量） + （0.638 * NRG1表达量） + （0.899 * EPHB2表达量）。基因联合指标的准确性AUC值高达0.779(95%CI=0.709-0.848)，高于单一基因的表达量的检测准确性。如下表所示：
#
#
#
# 指标
#
#
# AUC
#
#
#
#
# GPR18
#
#
# 0.702
#
#
#
#
# PDK4
#
#
# 0.620
#
#
#
#
# NRG1
#
#
# 0.660
#
#
#
#
# EPHB2
#
#
# 0.631
#
#
#
#
# 基因联合模型
#
#
# 0.779
#
#
#
# 虽然已有NRG1，PDK4，EPHB2在抑郁症病理生理过程中能够发挥作用，然而未有证据表明其表达量在严重抑郁症病理状态下与健康状态下的差异，例如NRG1基因的多态性可能与抑郁症存在关联关系，但其表达量是否能应用于抑郁症诊断的早期筛查指标，有赖于确认其是否在不同影响因素（年龄、性别）下其适合检测的指标，例如表达量，存在较为稳定的差异，其作为抑郁症筛查标志物是否具有足够的抑郁症样本区分能力（达到中等准确水平）。本发明首先确认了此前未见抑郁症关联报道的基因GPR18与严重抑郁症的关联关系，然后提供了6个基因（CAPNS2、WDR41、GPR18、PDK4、NRG1以及EPHB2）其表达量能作为严重抑郁症检测生化指标的数据实证以及实验证据，包括有效性、稳定性。优选方案分析了这些基因之间的影响独立性，确认最佳的严重抑郁症基因表达量检测标志物组合为：GPR18、PDK4、NRG1、以及EPHB2基因的表达量。
# 实施例5 动物模型验证
# 建立抑郁症动物模型，采用行为学测试（糖水偏好、悬尾、强迫游泳）评估抑郁症动物模型，结果如图4所示。结果显示：抑郁症模型建立成功，抑郁症动物模型相对于正常对照*P&lt;0.05。
# 设计合成GPR18引物序列，取抑郁症小鼠和正常动物的前额皮层组织，采用RT-PCR检测GPR-18的mRNA相对表达量，GPR18的引物序列如下：
# Forward sequence：5’-GAAGCCCAAGGTCAAGGAGAAGTC-3’
# Reverse sequence：5’-GCGAACACTGCGAAGGTAATTGC-3’
# 结果显示如图5所示，与正常小鼠相比较，GPR18在抑郁症模型小鼠的前额皮层组织中表达显著降低*P&lt;0.01。
# 本领域的技术人员可以明确，在不脱离本发明的总体精神以及构思的情形下，可以做出对于以上实施例的各种变型。其均落入本发明的保护范围之内。本发明的保护方案以本发明所附的权利要求书为准。
# &nbsp; """
#     text1 = filter(str1)
#     text2 = filter(str2)
#     similarity = calc_similarity(text1, text2)
#     print("文章相似度： %.4f"%similarity)
    #将相似度结果写入指定文件
    # f = open(save_path, 'w', encoding="utf-8")
    # f.write("文章相似度： %.4f"%similarity)
    # f.close()
    file_path = r'C:\Users\Administrator\Desktop\administrative_office_system\personal_attachments/2022/09/09/4b6931268354708416d38294480b2354d119fbc6/OA系统需求清单(二期)-20220602(1).xlsx'
    print(os.path.exists(file_path))
